Анализ данных о сердечно-сосудистых заболеваниях

(поиск инсайтов, составление рекомендаций стейкхолдерам)

Алексей Якиманский

Введение

Проблема

Сердечно-сосудистые заболевания (ССЗ) — основная причина смертности. Раннее выявление рисков критически важно.

Цель исследования

Анализ факторов риска и построение ML-моделей для оценки вероятности заболевания.

Задачи

  • Исследовательский анализ данных (EDA).
  • Очистка от выбросов и аномалий.
  • Разработка предиктивных моделей.
  • Формирование бизнес-рекомендаций.

Стейкхолдеры

Ключевые выгодоприобретатели результатов исследования:

🏥 Медицинские учреждения

  • Оптимизация скрининга
  • Снижение нагрузки на врачей
  • Точность диагностики

👨‍⚕️ Врачи

  • Поддержка принятия решений
  • Приоритизация пациентов

👤 Пациенты

  • Персонализированные рекомендации
  • Раннее предупреждение

📉 Страховые компании

  • Оценка рисков
  • Превентивная медицина

Обзор данных

Источник: Cardiovascular Disease Dataset
Объем: 70 000 записей

Антропометрия:

  • age (возраст)
  • gender (пол)
  • height (рост)
  • weight (вес)

Образ жизни:

  • smoke (курение)
  • alco (алкоголь)
  • active (спорт)

Медицинские показатели:

  • ap_hi, ap_lo (давление)
  • cholesterol (холестерин)
  • gluc (глюкоза)

Целевая переменная:

  • cardio (наличие ССЗ)

Качество данных и очистка

В исходных данных обнаружены выбросы (ошибки ввода):

  • Нереалистичное давление (напр. -150)
  • Аномальный рост/вес

Целевая переменная

Вывод:

Классы практически идеально сбалансированы (~50/50).

Портрет пациента: Пол и Возраст

  • Возраст: Медиана ~54 года. Пик риска смещен к 60 годам.
  • Пол: В выборке преобладают женщины (65%), что типично для медицинских обследований в данной возрастной группе.

Фактор веса (BMI)

Индекс массы тела — один из ключевых индикаторов.

Наблюдение:

  • Менее 40% пациентов имеют нормальный вес.
  • Группы риска (избыточный вес + ожирение) составляют большинство.

Образ жизни и показатели

Влияние вредных привычек и уровня метаболизма.

  • Холестерин: У 25% пациентов уровень выше нормы.
  • Активность: 80% заявляют о физической активности.

Корреляционный анализ

Какие факторы связаны сильнее всего?

Ключевые связи:

  1. Cardio ↔︎ Давление (самая сильная связь).
  2. Cardio ↔︎ Возраст.
  3. Cardio ↔︎ Вес/BMI.
  4. Smoke ↔︎ Gender.

Моделирование: Подход

Для прогнозирования были выбраны два алгоритма:

  1. Logistic Regression (Линейная модель, интерпретируемая).
  2. Random Forest (Ансамблевый метод, улавливает нелинейности).

Процесс:

  • Разделение данных: 80% Train / 20% Test.
  • Stratified Split (сохранение баланса классов).
  • Стандартизация признаков (StandardScaler).

Результаты моделирования

Сравнение точности (Accuracy) моделей на тестовой выборке.


Random Forest показал лучший результат: ~73.6%

Это достаточный уровень для систем первичного скрининга и триажа пациентов.

Важность признаков

Какие факторы модель Random Forest считает самыми важными?

  1. Давление (ap_hi) — доминирующий фактор.
  2. Возраст — второй по значимости.
  3. Холестерин — замыкает тройку лидеров.

Рекомендации стейкхолдерам

  • Внедрить калькулятор риска на основе ML-модели.
  • Особое внимание пациентам с BMI > 25 и возрастом > 50.
  • Приоритизировать контроль систолического давления.
  • Регулярный мониторинг давления (критический фактор).
  • Контроль веса (коррелирует с давлением и ССЗ).
  • Снижение уровня холестерина.
  • Предлагать пакетные услуги: “Липидный профиль + Глюкоза + Измерение давления”.
  • Интегрировать скоринг в результаты анализов.

Заключение

  1. Данные: Проанализировано 70 000 кейсов. Выявлены и удалены аномалии.
  2. Факторы: Подтверждена ключевая роль гипертонии и возраста.
  3. Модель: Разработан прототип на базе Random Forest с точностью ~73.6%.
  4. Внедрение: Модель готова к пилотному тестированию в качестве инструмента поддержки принятия врачебных решений.

Спасибо за внимание!